PacBio HiFi 测序原理与应用¶
一句话说明¶
PacBio HiFi 是"又长又准"的测序技术——DNA 片段做成环形,聚合酶绕着圈读好多遍,把每遍的错误平均掉,最终得到 10-20kb 的高精度长读序列(准确率 >99.9%)。
核心知识点¶
要点1:HiFi 的技术原理¶
- PacBio 的 SMRT 测序:单分子实时测序,聚合酶固定在零模波导孔(ZMW)底部
- DNA 模板做成 SMRTbell(哑铃形环状结构):插入片段两端加接头形成闭合环
- 聚合酶沿模板持续合成,每次通过(pass)就是一次亚读(subread)
- HiFi 的关键:插入片段 ~15-20kb,聚合酶绕多圈(≥3 passes),取共识序列(CCS)
- CCS = Circular Consensus Sequence → 准确率从单 pass 的 ~85% 提升到 >99.9%(Q30+)
要点2:HiFi vs CLR vs ONT¶
| 特征 | HiFi (CCS) | CLR (连续长读) | ONT |
|---|---|---|---|
| 读长 | 10-25 kb | 10-100+ kb | 1-100+ kb |
| 准确率 | >99.9% (Q30+) | ~85-90% | ~99%(R10.4+) |
| 通量 | ~30 Gb/cell | ~50 Gb/cell | ~50-100 Gb/cell |
| 均一性 | 低 GC 偏好 | 低 GC 偏好 | 极低 GC 偏好 |
| 表观修饰 | 可检测 | 可检测 | 可检测 |
| 成本 | 高 | 中 | 低-中 |
要点3:核心应用场景¶
- 从头组装:HiFi 是当前最佳基因组组装数据源(T2T 基因组使用)
- 结构变异检测:长读长精确识别 SV(50bp-Mb 级)
- 单倍型分装:直接 phase 产生单倍型组装
- 全长转录本:Iso-Seq 模式测全长 mRNA
- 表观修饰检测:聚合酶动力学信号检测 5mC、6mA 等
- HLA 分型:精确解析高度多态的 MHC 区域
要点4:Revio 平台(2023+)¶
- PacBio 最新平台,取代 Sequel II/IIe
- 4 个 SMRT Cell 同时运行,通量大幅提升
- 每个 SMRT Cell ~100-120 Gb HiFi 数据(SPRQ 化学,约 30-40× 人类基因组)
- 成本下降约 3 倍
实战代码¶
# ===== PacBio HiFi 数据处理流程 =====
# 1. 生成 HiFi reads(从原始 subreads 生成 CCS)
# 使用 PacBio 的 ccs 工具(SMRT Link 套件)
ccs input.subreads.bam output.hifi.bam \
--min-rq 0.99 \ # 最低质量阈值 Q20(99%)
--min-passes 3 \ # 至少 3 次完整 pass
--num-threads 16
# 注意:Revio 平台直接输出 HiFi reads,无需此步骤
# 2. 查看 HiFi reads 统计
# 平均读长、总量、质量分布
python -c "
import pysam
bam = pysam.AlignmentFile('output.hifi.bam', 'rb', check_sq=False)
lengths = []
quals = []
for read in bam:
lengths.append(read.query_length)
quals.append(read.get_tag('rq')) # 读质量
bam.close()
import numpy as np
print(f'HiFi reads 数: {len(lengths)}')
print(f'平均读长: {np.mean(lengths):.0f} bp')
print(f'中位读长: {np.median(lengths):.0f} bp')
print(f'N50 读长: {sorted(lengths, reverse=True)[len(lengths)//2]:.0f} bp')
print(f'平均质量: {np.mean(quals):.4f}')
print(f'总碱基数: {sum(lengths)/1e9:.1f} Gb')
"
# 3. 基因组比对
# 使用 minimap2(长读比对标准工具)
# -a: 输出 SAM 格式
# -x map-hifi: HiFi 专用预设参数
minimap2 -a -x map-hifi -t 16 \
ref_genome.fa output.hifi.bam | \
samtools sort -@ 8 -o aligned.sorted.bam
samtools index aligned.sorted.bam
# 4. 基因组从头组装(使用 hifiasm)
# hifiasm 是 HiFi 数据最佳组装工具
hifiasm -o assembly \
-t 32 \ # 线程数
output.hifi.fastq.gz # HiFi reads
# 输出文件:
# assembly.bp.p_ctg.gfa → 主要 contigs(GFA 格式)
# assembly.bp.hap1.p_ctg.gfa → 单倍型1
# assembly.bp.hap2.p_ctg.gfa → 单倍型2
# GFA 转 FASTA
awk '/^S/{print ">"$2; print $3}' \
assembly.bp.p_ctg.gfa > assembly.p_ctg.fa
# 5. 组装质量评估
# QUAST:基本统计
quast assembly.p_ctg.fa -r ref_genome.fa \
-o quast_output/ -t 8
# BUSCO:基因完整性评估
busco -i assembly.p_ctg.fa -l mammalia_odb10 \
-o busco_output -m genome -c 8
面试常问点¶
★ HiFi 为什么能做到又长又准?¶
参考答案:HiFi 的核心是 CCS(环形共识序列)技术。DNA 插入片段被做成环形的 SMRTbell 模板,聚合酶沿着这个环多次通过(至少 3 次),每次独立地读一遍。虽然单次通过的错误率约 10-15%,但因为错误是随机的,多次通过取共识后错误率指数下降。类比:一个人说话你可能听错,但让他重复说三遍以上,你几乎不可能每次都听错同一个字。
★ HiFi 和 ONT 怎么选?¶
参考答案:两者各有优势。HiFi 准确率更高(Q30+ vs Q20+),特别适合变异检测和从头组装,是目前 T2T 级别基因组组装的首选。ONT 读长可以更长(超长模式可达 Mb 级),成本更低,设备小巧便携,适合现场测序和需要超长读长的场景(如复杂重复区域)。很多项目两者结合使用——HiFi 做主要组装,ONT 超长 reads 辅助跨越重复区域。
速查卡片¶
| 问题 | 一句话答案 |
|---|---|
| HiFi 全称 | High Fidelity(CCS = Circular Consensus Sequence) |
| 典型读长 | 10-25 kb |
| 准确率 | >99.9%(Q30+) |
| 最少 pass 数 | 3 次 |
| 最新平台 | Revio(2023+) |
| 最佳组装工具 | hifiasm |
| 比对工具 | minimap2 -x map-hifi |
| 核心优势 | 长读长 + 高准确率的唯一兼得方案 |
| 每 SMRT Cell 通量 | ~100-120 Gb(Revio + SPRQ) |